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张 量 数据 中 的 多 密集 块 检测 方法 


范 卫 俊 ， 程 艳 云 
(南京 邮电 大 学 自动 化 学 院 , 南京 310023) 


jj 要 : 过 去 的 许多 研究 表明 在 实际 张 量 数据 中 密集 的 部 分 存在 着 异常 或 者 欺诈 行为 ， 如 微 博 僵 尸 粉 行为 、 网 络 攻击 
等 。 因 此 ， 研 究 人 员 提 出 了 各 种 各 样 的 方法 来 针对 密集 块 的 提取 ， 但 是 这 些 方法 存在 着 低 准 确 率 和 召回 率 的 缺点 。 针 
对 这 些 缺点 ， 提 出 了 一 种 基于 二 又 树 搜 索 的 多 密集 块 检测 方法 ， 简 称 DDB-BST, 通过 对 张 量 数据 进行 基于 评价 指标 的 
局 部 搜索 ， 找 到 评价 指标 最 高 的 子 张 量 数据 ， 将 数据 分 成 左右 子 节点 ， 通 过 不 断 比 较 父 节点 和 左右 子 节点 评价 指标 值 
的 数值 关系 ， 判 断 二 又 树 生长 是 否 终止 。 对 终止 条 件 给 出 了 严格 的 数学 证 明 。 在 合成 数据 集 以 及 真实 数据 集 上 进行 实 
验 ， 发 现 DDB-BST 比 现 有 的 M-zoom 多 密集 块 方法 的 Fl 值 提高 近 30%。 

关键 词 : 张 量 数据 ; 密集 块 ; 二 又 树 搜索 ; 终止 条 件 
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Method on dense-blocks detection in tensor data 


Fan Weijun, Cheng Yanyun 
(College of Automation, Nanjing University of Posts & Telecommunications, Nanjing 310023, China) 


Abstract: Past studies have shown that dense blocks in real-world tensor can have anomalous or fraudulent behavior such as 
zombie followers' behavior or network attack. Thus, various methods have been used for detecting dense blocks in tensor. 
However, these methods have low accuracy or low recall rate. To overcome those limitations, DDB-BST is proposed, a method 
on dense blocks detection based on binary tree search which finds the block with the highest metric in tensor by local search. 
By comparing key values between child's and father's nodes, we judge whether the binary tree grows. Finally, when the binary 
tree stop growing, all the child nodes are dense blocks. End condition of binary tree growing is mathematically proven. 


Experiments on both synthesis data and real-world data show efficiency of the method, the F1 value with DDB-BST being 30 


percent higher than for M-zoom. 


Key Words: tensor data; dense-blocks; binary tree search; end condition 


布 模型 的 方法 辐 ， 基 于 采样 的 方法 加 以 及 针对 数 亿 规 模 数 据 的 
张 量 分 解 中 等 。 然 而 基于 张 量 分 解 的 密集 块 挖 掘 方法 存在 着 几 
段 设 你 的 工作 是 检测 异常 的 网 络 连 接 ， 那 么 如 何 提取 出 如 ” ”点 缺点 : 没 考虑 背景 数据 的 性 质 ， 在 密度 指标 下 不 具有 较 高 延 
下 的 异常 行为 : 一 群 P 地 址 每 几 秒 向 同一 个 IP 地 址 中 的 某 几 展 性 ;不 能 提供 合理 的 边界 。 另 一 种 是 稠密 子 图 挖 气 方 法 ， 文 
个 端口 发 送 连 接 请 求 或 者 是 得 到 一 段 时 间 内 网 络 连 接 的 特征 信 献 [%] 对 稠密 子 图 的 挖掘 方法 进行 了 总 结 。 最 新 的 稠密 子 图 挖掘 
息 如 协议 类 型 、 从 源 到 目的 地 的 字 节 数 、 过 去 两 秒 内 与 当前 连 ”的 方法 主要 有 : 采用 最 大 整体 密度 和 有 限 重 合 寻找 密集 子 图 中， 
主机 的 连接 数 等 。 目 前 很 多 研究 已 经 通过 张 量 模型 [1] 来 ”基于 核 分 解 的 稠密 子 图 的 发 现 00; 基于 一 种 新 的 评价 指标 来 发 
处 理 这 类 问题 ， 而 在 张 量 中 的 密集 块 代表 着 一 群 用 户 的 同步 行 现在 不 确定 图 上 的 稠密 子 图 0 以 及 基于 数据 流 或 者 分 布 式 上 
为 ， 而 这 些 行为 往往 是 可 疑 的 。 所 以 张 量 中 的 密集 块 提 取 被 / 动态 稠密 子 图 的 挖掘 0293]。 最 新 的 研究 是 通过 定义 新 的 标准 来 
泛 的 应 用 于 网 络 入 侵 检测 叫 、 提 高 微 博 转 发 量 检测 喇 、 僵 尸 粉 活 “对 张 量 中 的 密集 块 的 检测 , 文献 [14] 提 出 的 CrossSpot 算法 是 通 
动 四 以 及 遗传 学 中 。 现 在 主要 有 三 种 类 型 的 方法 能 对 张 量 中 的 。 过 随机 选取 一 个 块 ， 然 后 使 用 一 种 近似 于 贪心 的 方法 不 断 调整 
密集 块 进行 快速 准确 的 检测 。 一 种 是 基于 张 量 分 解 的 密集 块 挖 ”这 个 块 的 维度 ， 直 到 其 达到 局 部 最 优 。 由 于 CrossSpot 没有 提 
掘 ， 张 量 分 解 应 用 于 对 密集 子 张 量 的 挖掘 ， 如 HOSVDUUR CP ” 供 一 个 合适 的 边界 ， 所 以 在 面 对 存在 多 密集 块 的 张 量 数据 中 ， 
分 解 。 近 年 来 研究 者 们 对 张 量 分 解 的 方法 不 断 改进 ， 如 基于 分 伟 测 效果 并 不 好 。 文 献 [15] 提 出 的 M-zoom 算法 同样 使 用 一 种 
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录用 稿 


近似 于 贪心 的 方法 ， 从 整个 张 量 数据 开始 不 断 移 除 每 个 维 
对 部 分 为 一 个 密集 块 ， 
再 对 剩 下 的 进行 重复 操作 。 


的 值 直到 其 达到 局 部 最 
集 块 移 除 ， 
集 块 检测 的 


LBI e 


3 


的 ， 但 是 


然后 将 密 
密 


虽然 这 样 可 以 达到 多 密 


其 准确 率 大 大 降低 。 


种 基于 
(Detect Dense Block with Binary S 


克服 上 述 基于 评价 


有 效 的 解决 在 张 量 数据 中 对 不 同形 


指标 算法 存在 的 问题 ， 本 文 提出 
Suspiciousness 评价 指标 的 二 叉 树 多 密集 块 搜索 算法 


earch Tree，DDB-BST)， 可 以 
式 的 多 密集 块 的 检测 。 


严格 的 数学 证 明证 明了 二 叉 树 的 生长 条 件 ， 从 而 实现 对 二 又 树 
中 根 数据 是 否 存在 密集 块 的 判定 。 应 用 不 同 数据 集 的 实验 结果 
表明 ,本 文 提 出 的 算法 可 以 有 效 地 对 张 量 数据 进行 密集 块 检测 。 
1 ”符号 及 定义 
1.1 符号 定义 
del 罗列 出 文章 所 出 现 的 符号 以 及 其 说 明 。 
表 1 符号 说 明 
符号 定义 
含有 开 个 标 称 属性 和 一 个 非 负 的 数值 属性 的 
张 量 数据 
K D 中 标 称 属 性 的 个 数 即 张 量 数据 的 维度 
Aj D 中 第 j 个 标 称 属性 
X D 中 的 数值 属性 数据 
B(B1,...,BK,X) D 中 的 子 张 量 数据 记录 
p(B,D) 子 张 量 数据 B 在 D 下 的 评价 指标 值 
SD (或 者 是 张 量 数据 D 中 X 的 和 (或 者 是 子 张 量 数据 B 
SB) 中 义 的 和 ) 
VD (或 者 是 IKE D 的 体积 (或 者 是 子 张 量 数 据 B 的 体 
VB) 积 ) 
aji 在 Aj 中 第 i 个 值 
Asaj i 在 Aj 中 第 i 个 值 下 所 有 X 的 和 


例 1 网 络 访问 历史 记录 。 在 图 


1 中 ,定义 了 一 组 数据 D(user 


ip date count) 并 且 每 一 条 数据 d Cu, IB, d, c). 表示 着 用 户 u 在 时 


刻 d 访 问 了 了 IP 地 址 c 次， 所 以 数据 D 中 的 标 称 属性 
数据 对 = count. 


A2- IP，A3= date 和 数值 属性 
Nike), B2= (192.168.5.2,192.168. 


B 表示 的 子 张 量 是 图 1(b) 中 的 阴影 
Ss=16, Vs=4, al 1={5}, Asai 
1.8 评价 指标 


A, — user, 


4 B,- (Lucy, 
2.1) ffl B3= {2017-1-2}， 所 以 
部 分 ， 此 时 对 应 的 符号 的 值 
={7,3,1}。 


本 文选 择 文献 [16] 提 出 的 Mosen 评价 指 n 


定义 1 (Suspiciousness) : 


的 Suspiciousness 值 的 计算 公式 如 下 : 
S V, V, 
B,D) - In — -1 z In 一 1 
PBD) = Sn -D+ SyS 0) 
Suspiciousness 评价 指标 可 以 很 好 的 满足 公理 1. 2. 
公理 1 密度 公理 。 如 果 两 个 子 数 据 框 的 尺寸 一 样 ， 那 么 


TrA, Y: 


这 两 个 子 数 
Suspiciousness 的 值 越 大 ， 即 
S, > S, H[B,I- [B, | 


据 框 中 数值 属性 的 所 有 值 的 和 越 大 ， 


Vn e K > p(B,D) > p(B,D) 


lEHB 
CVERAERBT 


I| 
方法 


则 


局 域 搜索 


公理 2 ”浓度 公理 。 如 果 两 个 子 数据 框 中 数值 属性 的 所 有 
值 的 和 一 样 ， 那 么 尺寸 越 小 的 Suspiciousness 的 值 越 大 ， 即 : 
V, < V, HS, =S, > p(B.D) > p(B D) 
1.3 问题 定义 
问题 1 给 定 一 个 K 维 的 张 量 数据 D, 数据 中 存在 这 m 个 
密集 块 , 采用 基于 式 (1) 的 评价 指标 进行 二 叉 树 搜索 和 
算法 找到 数据 中 的 m 个 密集 块 。 
User IP Date Count 
Lucy 192.168.5.2 2017-1-2 5 
Lucy 192.168.2.1 2017-1-2 3 
Nike | 192.168.5.2 2017-1-2 6 
Nike 192.168.1.1 2017-1-2 2 
Bob 192.168.1.1 2017-1-3 1 
(a) 一 组 数据 框 的 数据 4, 深 色 部 分 的 数据 表示 数据 框 B 
i 3 7 0 473 
en Zr 
Lucy 
EN 0 
DB Nike 
过 2 
Bob 


192.168.5.2 192.168.2.1 192.168.1.1 


IP 


(a) 所 对 应 的 张 量 数据 4， 以 及 
关于 例 1 的 描述 


(b) 


图 1 


2 ”基于 评价 


2.1 


有 标的 二 又 树 搜索 的 多 密集 块 检测 
基于 评价 指标 的 二 叉 树 搜索 的 多 密集 块 检测 算法 流程 


DDB-DST 算法 


两 部 分 组 成 ,首先 对 原 数 


得 到 适 | 


其 中 选中 的 子 张 量 


虽 进 行 预 处 理 


j 于 该 算法 处 理 的 数据 格式 ， 其 次 对 处 理 后 的 数据 进行 


算法 2 搜索 ， 得 到 二 又 树 的 左右 子 节点 ; 


的 多 个 异常 块 ， 具 体 算法 流程 所 下 示 : 
算法 1 二 又 树 搜索 算法 : 
输入 : 原始 张 量 数据 Dos 
输出 : k 个 密集 数据 块 

R= Dor,noder 编号 为 0 

2. 将 数据 R 插入 到 
= p(B,D,,) 


key, 


再 对 左右 节点 运行 
法 2， 如 此 反复 直至 满足 终止 条 件 。 这 样 就 可 


以 得 到 原 数 


3. 对 数据 R 进行 算法 


2 计算 ， 得 到 


算 
居中 


— X prp, W node 编号 为 nodes, SET. 


叉 树 的 左 节点 B AA 
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节点 Bi ,其 node 编号 分 别 为 nodert“1”" 和 noder+“0”, 键 值 为 
key, = p(B,,D,,) Fl key, = p(B.,D,,) 
4. 如 果 key, < key, + key, » WR — Bi. 继续 第 二 步 , R=B 继 
续 第 二 步 。 
5. 如 果 key, > key, +key, , 则 保存 尺 到 列表 dense block 中。 
.全 部 查找 结束 ， 返 蕊 
算法 2 局 域 搜索 单 密集 块 算法 : 


dense block. 


输入 张 量 数据 R， 种 子 seed AL (A E 
输出 : 二叉树 左右 子 数据 框 数据 BL 和 Bn 
1. 初始 化 y HE 


2. W j -L..K, YE A, 中 的 元 素 a; 按照 AS, 降序 排列 ， 保 


WA 中 除 7 维 以 外 的 元 素 添加 到 4 中 , 然后 依次 添加 wy 到 4 ， 


不 断 重 复 上 述 步 又 1、 步 又 2， 直 到 Suspiciousness 收敛 。 


将 pA，B=R-B。 


l 


2.2 算法 时 间 复 杂 度 分 析 

算法 2 局 部 搜索 单 密集 块 算法 的 时 间 复 杂 度 是 
o(T x K x(E* Nlog N)) ;其 中 7 了 是 迭代 次 数 ，K 是 张 量 数据 的 
EHE, E 是 数据 中 非 零 元 素 的 数量 ，N 是 任意 维度 中 最 大 的 长 
BE. 通常 情况 下 7 和 KK 是 设置 成 常数 ， 所 以 算法 2 的 时 间 复 杂 
度 和 张 量 数据 中 非 零 元 素 的 个 数 成 线性 关系 。 算 法 1 二 又 树 搜 
索 算 法 的 时 间 复 杂 度 是 o(c) c 是 运算 算法 2 的 次 数 ， 所 以 算 
法 1 的 时 间 复 杂 度 和 算法 2 的 时 间 复 杂 度 成 线性 关系 。 所 以 整 
个 算法 时 间 复 杂 度 是 o(c x T x K x (E - Nlog N)) 。 
2.3 二叉树 生长 条 件 

定义 3 假设 初始 数据 是 稀 跑 和 矩阵 CRI 4<<1)， 对 原 数 据 
进行 算法 2 计算 ， 可 以 得 到 Suspiciousness 值 最 大 的 子 张 量 数 
F, 定义 为 左 子 树 , 编号 为 1, 将 左 子 树 从 原 数 据 切 除 , 剩 下 的 
子 张 量 数据 定义 为 右 子 树 , 编号 为 0。 根 数据 进行 算法 2 计算 ， 
可 以 得 到 左 子 树 ， 如 果 根 数据 的 编号 含有 1， 那 么 将 左 子 树 在 
根 数据 所 在 维度 上 的 所 有 值 剪 除 剩 下 的 部 分 为 右 子 树 ， 如 果 根 
数据 中 的 编号 不 含 0， 那 么 将 左 子 树 从 根 数据 中 剪除 。 对 数据 
进行 基于 原 背景 数据 疑心 度 计 算 分 别 为 key, 、 key, 和 key, o 
BOX e= key, - (key, + key,)， 根 据 式 (1) 将 其 展开 得 到 式 (2)。 


bid 


e=s, (0% —1) e ST — s In T +s, n2 21) 4 $7 
8 N N S N 


n n e 
s, In — 
N © N 


n s 
sIn— -s (n= -1)- S 
N E $ ) 


定理 1 如 果 根 数据 是 完全 异常 或 者 完全 非 异 常 ， 那 么 
key, > key, +key, 。 


证 明 


情况 1 “假设 根 数据 是 完全 异常 , 则 4 RA AL AT 


且 是 采 / 


切割 的 方法 , W n, +n, <n, 。 因 为 4= 了 ,所 以 将 式 (2) 
n 


化 简 得 到 式 (3)。 
e = (A, In A, — A,InA — A, *- AYn,*n, —n,) (3) 


XX n, * n, -n, «0» 
所 以 要 证 e<0， 只 要 证 4ln4.-4n24-4.+4>0 
将 式 (3) 整 理 得 到 式 (4): 


A À À DEI 
e 3 LES Jem ono (4) 


EF A >>4， Jj e s1, ES 
A A-e 


>1， 


所 以 e>0。 
情况 2 如 果 根 数据 是 完全 非 异常 ， 
WA, mA ARA: Pi eno 
综合 情况 1 和 2 可 以 得 到 
e- key, - (Key, +key, ) Z0 Bp key, > key, + key, 


证 举 。 
定理 2 如果 根 数据 含有 异常 集合 ， 则 key, < key, + key, 。 


正明 : 将 式 (2) 化 简 可 得 式 (5): 


e- s,InA, t s,.InA, — s, In 4, —In A(s, ts, — Sn) 


ms 


G) 


+s, * Sp —54) -A(n, tn, =g) 


MA kE, MAA 


S, Sp — Sy ZAC, c n, -n,) &0O. 


对 于 包含 异常 集合 的 非 完 全 异常 块 ,必然 存在 非 异常 部 分 ， 
因此 有 4 AS HAAS BIA 


1 À 
exs, In A, t s,In A, — (s, +s) nAg = s, 1n- t s,I1n — >0 
AR AR 


证 毕 。 


3 ”仿真 实验 


| 


为 了 验证 本 文 提出 的 算法 的 有 效 性 ， 进 行 了 大 量 实验 ， 实 
验 中 首先 对 比 了 本 文 算法 和 相关 异常 集合 检测 的 运行 效率 问题 
然后 重点 对 比 本 文 提出 的 DDB-DST 算法 和 文献 [12] 提 出 的 M- 
zoom 算法 对 于 多 异常 集合 检测 的 结果 召回 率 和 准确 率 分 析 。 本 
文 所 有 的 算法 均 采用 R 语言 编程 实现 ， 实 验 环境 为 PC pl. OE 
有 Intel(R)Core(TM)i5-2450M, CPU 频率 2.5 GHz 内 存 4 GB, 
运行 Windows7 32 位 操作 系统 。 本 文 所 采用 的 数据 集 在 表 2 中 
给 出 ， 其 中 LBNL 数据 集 来 自 Lawrence Berkeley National Lab 
提供 的 公开 网 络 包 ,数据 集 AirForce 数据 集 来 自 1999KDDCup 
的 网 络 包 数 据 。S-Data-2 和 S-Data-3 分 别 是 含有 若干 异常 集合 
的 合成 数据 集 。 
3.1 合成 数据 集 仿真 

本 节 中 通过 合成 数据 集 S-Data-2D 和 S-Data-3D 来 比较 本 
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文 算 法 和 M-zoom 算法 对 异常 集合 的 检测 效果 。S-Data-2D: 基 ”是 时 间 (s), 源 IP 地 址 ， 目 标 IP 地 址 和 端口 号 。 数 值 属性 数据 
于 ERP 模型 根据 如 下 参数 生成 随机 数据 集 : (1) 维 度 K=2，(2) ”是 发 包 数 量 。AirForce 数据 集 不 同 于 LBNL 数据 集 它 并 不 包含 
Rf 500*500, (3)Possion 分 布 X-0.01. 在 随机 生成 的 数据 集中 PRE, 包含 了 七 个 属性 分 别 是 : protocol, service. src bytes. 
注入 3 个 维度 为 2 的 异常 集合 ， 异 常 集合 的 尺寸 分 别 为 dst bytes、flag、court、srv count， 数 值 属性 是 连接 次 数 。 

10*10,20*20,30*30。 任 务 是 将 这 三 个 异常 集合 从 随机 生成 的 数 表 4 展示 了 在 真实 数据 集中 DDB-BST 算法 对 于 网 络 攻 了 
据 集中 检测 出 来 。 表 3 给 出 了 CSBST 算法 和 M-zoom 的 检测 ”检测 的 结果 ,可 以 发 现 异 常 集合 通常 是 由 多 种 网 络 攻 击 组 成 的 ， 
结果 。S-Data-3D: 继 续 根 据 下 列 参数 生成 高 维 数据 集 : (1) 维 度 。 ”而 在 标 称 属性 组 成 的 高 维 张 量 数 据 中 ， 发 包 数 量 或 者 是 连接 次 
K-3, (2) 尺寸 500*500*500，，(3) Possion 分 布 的 和 =0.01。 数组 成 的 密集 部 分 的 正 是 异常 部 分 。 表 5 展示 了 在 LBNL 和 
在 数据 集中 生成 3 个 维度 为 3 的 异常 集合 ， 异 常 集合 的 尺寸 分 。 AirForce 数据 集中 ，DDB-BST 算法 对 其 检测 性 能 评价 以 及 同 
别 为 15*10*15,10*10*10,20*10*30。 表 3 给 出 了 DDB-DST 算 M-zoom 和 CrossSpot 的 比较 ， 从 表 中 可 以 看 出 DDB-DST 算法 
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法 和 M-zoom 的 检测 结果 。 比 M-zoom 算法 F1 值 提高 了 20%， 比 CrossSpot 算法 Fl 值 提 
表 2 数据 集 汇总 高 了 40%， 主 要 是 因为 上 述 所 示 的 两 种 方法 只 是 找到 评价 指标 
数据 集 维度 X 最 高 的 张 量 数据 集 ， 但 评价 指标 最 高 并 不 能 保证 数据 集中 全 是 
"ES "Eo 异常 数据 ， 而 DDB-BST 算法 还 要 对 这 样 的 数据 集 进一步 的 判 
S-Dain-3D 4  sio3kK 别 来 保证 检测 出 的 数据 集中 不 含有 异常 数据 。 
LBNL 数据 集 4 3.73M 


4 ”结束 语 
AirForce (10%) 7 64.6M 


本 文 研究 了 高 维 张 量 数据 中 多 密集 块 的 检测 方法 ， 提 出 了 
种 基于 二 叉 树 的 多 密集 块 检测 算法 ， 给 出 了 二 又 权 生长 的 条 
件 ， 并 证 明了 条 件 的 合理 性 。 实 验 结果 表明 上 述 算法 具有 很 高 


表 3 三 种 算法 在 合成 数据 集 上 的 比较 
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